iT邦幫忙

2023 iThome 鐵人賽

DAY 17
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 17

DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder

  • 分享至 

  • xImage
  •  

SeamlessM4T在Text decoder產生文本後已達成三種任務的功能,包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text-to-Unit)編碼器。它的T2U編碼器可將文本轉換為36種語言的語音單元,而後再送進Unit Decoder轉換為離散序列送進後級Vocoder生成語音輸出。

T2U encoder 及 Second-pass unit decoder

T2U(Text-to-Unit) encoder作為文本及語音單元解碼器之間的橋樑,且這轉換不需要改變序列長度。第二階段語音單元解碼器,透過T2U encoder的輸出結果生成離散序列單元(Unit)。只要單元生成,就可以送入後級Vocoder,將離散的語音單元轉為聲波訊號。

在整個UnitY模型的推理過程中,MetaAI執行了兩次解碼。 第一次是在Text Decoder找到最有可能的文本。然後送到T2U編碼器,生成最可能的離散語音單元(Unit)。最後將單元輸入到基於單元的聲碼器來生成聲波波形。

透過增加層數,MetaAI在第一階段文本解碼器分配更多的模型容量,高於第二階段的單元解碼器,這樣的做法他們稱為“深淺二階段解碼器”,來提高翻譯品質和推理。

總結

T2U模型作為文本及語音單元的橋樑,有了文本輸出結果後,作為後續二階段語音處理的輸入。其中MetaAI在第一階段文本解碼器分配更多的模型容量,高於第二階段的單元解碼器,這樣的做法他們稱為“深淺二階段解碼器”,來提高翻譯品質和推理。


上一篇
DAY16 - SeamlessM4T中的Text Decoder
下一篇
DAY18 - SeamlessM4T程式碼中的Vocoder
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言